草庐IT

Java Quartz 作业持久化

全部标签

java - 为什么 Oozie 在运行 MapReduce 作业时分配更多内存?

我正在使用oozie运行MapReduce作业。从工作流中我只是调用MapReduce驱动程序类,除此之外别无其他。但是对于这个oozie工作流程需要大量内存。它需要至少2GB的容器大小来调用驱动程序类。下面是workflow.xml${jobTracker}${nameNode}mapred.job.queue.name${jobQueue}${jobScript}${arguments}${queueName}${wf:id()}myPath/MyDriver.sh#MyDriver.shJobfailedfailed:[${wf:errorMessage(wf:lastError

Hadoop 作业 : Error injecting constructor, JAXBException

在ApacheCrunch管道中实现的MapReduce作业失败并显示错误消息Errorinjectingconstructor,javax.xml.bind.JAXBException:property"retainReferenceToInfo"isnotsupported。Crunch管道与其他功能管道非常相似;有没有人对下面看到的错误有任何理论或直觉?感谢您的帮助。可以在下面找到应用程序日志的摘录:2016-02-1613:34:31,925INFO[main]org.mortbay.log:Extractjar:file:/data7/hadoop/yarn/local/fi

hadoop - Oozie 作业被挂起并且未到达 YARN

我正在尝试通过cli启动OozieShell操作作业:ooziejob-configjobprops/jos.prioperties-runJob开始,它给了我一个唯一的Id,我可以在OozieUI中看到Job。但是,Yarn控制台显示没有提交的作业,并且在oozie中检查日志时我收到以下消息:Errorstartingaction[folder-structure].ErrorType[TRANSIENT],ErrorCode[JA009]Message[JA009:Permissiondenied:user=vikas.r,access=WRITE,inode="/":hdfs:h

hadoop - 当 NameNode 宕机时,hadoop 作业会发生什么?

在Hadoop1.2.1中,我想对以下这些问题有一些基本的了解谁接收hadoop作业?是NameNode还是JobTracker?如果有人在NameNode宕机时提交Hadoop作业会发生什么情况?hadoop作业会失败吗?还是进入Hold状态?如果有人在JobTracker宕机时提交Hadoop作业,会发生什么情况?hadoop作业是否失败?还是进入Hold状态? 最佳答案 对于Hadoop作业,您可能指的是MapReduce作业。如果您的NN出现故障,并且您没有备用的(在HA设置中),您的HDFS将无法工作,并且依赖于此HDFS

hadoop - 怎么知道没有。在 map 作业中运行的节点数

输入拆分的数量是否决定了mapreduce作业中运行节点的数量。我的意思是,如果我有5个输入拆分,这将使它们分布在5个节点上进行处理。map任务的数量是否与节点的数量相似?如何在clouderavm中检查 最佳答案 不split不决定节点数。Hadoop集群即NameNode、DataNode和其他服务由Hadoop管理员根据数据大小设置。在ClouderaVM打开浏览器(MozillaforCDH3)上有一个书签Namenode状态。单击它,Namenode将包含有关您正在处理的集群的所有元数据。要了解MapReduce框架执行的

hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录?

我已经安装了CDH5.5.1和Hue、Hadoop、Spark、Hive、Oozie、Yarn和ZooKeeper。当我运行Spark作业或MapReduce作业时,Hue会在作业历史记录中显示一个问题。问题是,当我重新启动CDH服务(不是物理节点)时,它会删除重新启动之前的所有作业历史记录。在Hadoop上,我怀疑有几个文件包含有关任务的信息,并且可能是保存作业信息的文件。他们的hadoop路径是:/tmp/logs/user/logs//user/history/done/2016/我在ClouderaManager配置页面、Hue配置页面和一些配置文件中都找过,都没有找到。我不知

hadoop - 运行组命令时 Pig 减少作业卡在 50%

我使用以下命令加载了一个包含大约6000行数据的文件A=load'/home/hduser/hdfsdrive/piginput/data/airlines.dat'usingPigStorage(',')as(Airline_ID:int,Name:chararray,Alias:chararray,IATA:chararray,ICAO:chararray,Callsign:chararray,Country:chararray,Active:chararray);B=foreachairlinegenerateCountry,Airline_ID;C=groupBbyCountr

java - 在 hbase 中插入数据时运行 hadoop 作业

每当在hbase表上完成插入时,我都需要运行hadoop作业吗?有一些可用的调度器Apache软件公平调度器我可以根据自己的目的选择哪一个? 最佳答案 ApacheOozie是一个工作流调度器,用于设计作业工作流并协调它们在特定事件或控制流中设计时发生。Jobs可以是map-reduce、Streamingmap-reduce、Pig、Hive、Sqoop任务以及java程序和shell脚本。FairScheduler用作MapReduce作业的资源调度器。现在对于您的情况,您应该使用Oozie。

hadoop - 将作业从 talend DI 导出到 talend big data

我是talendETL工具的新手。我已经在talendDI(数据集成)工具中创建了作业工作流,现在我想使用hadoop切换/实现相同的作业,因为我正在使用talend大数据工具。谁能解释我如何实现这一目标。TalendDI到Talend大数据集成。 最佳答案 根据我的理解,DI和大数据Talend工具的库是不同的,可能是因为这种导入是不可能的。 关于hadoop-将作业从talendDI导出到talendbigdata,我们在StackOverflow上找到一个类似的问题:

hadoop - 密码问题的 Sqoop 作业

Sqoop作业总是在CLI中提示输入密码。为了避免这种情况,据说应该将属性sqoop.metastore.client.record.password设置为true。但是到处都说我需要更改sqqop_site.xml中的这个值。无论如何我可以将这个值单独设置为一项工作。我尝试创建如下所示的作业,但sqoop无法创建它sqoopjob--createTEST-Dsqoop.metastore.client.record.password=true--import\--connectjdbc:netezza://xx.xxx.xx.xxx/database\--usernameuserna